#benchmark dsr

¿Pueden los LLM razonar estructuralmente?

Descubre DSR-Bench, el benchmark que revela las limitaciones en razonamiento estructural de los LLM. ¡El mejor modelo solo obtiene 0.46/1!